Chinay vA 
c nina ivs 


口 


心理 科学 进展 2023, Vol. 31, No. 6, 1002-1019 © 2023 中 国 科 学 院 心理 研究 所 
Advances in Psychological Science https://doi.org/10.3724/SP.J.1042.2023.01002 


。 研究 前 沿 (Regular Articles) ° 


语义 在 人 脑 中 的 分 布 式 表征 : 来 自 自 然 语言 
处 理 技 术 的 证 据 


Hee RE? BA! TER? wee 


(北京 师范 大 学 心理 学 部 , 北京 100875) C 北京 师范 大 学 文理 学 院 心理 学 系 , 珠海 519087) 
G 北 京师 范 大 学 认 知 神经 科学 与 学 习 国家 重点 实验 室 和 IDG/ 麦 戈 文 脑 科 学 研究 院 , 北京 100875) 
(北京 师范 大 学 认 知 神经 科学 与 学 习 国 家 重点 实验 室 认 知 神经 工效 研究 中 心 ,珠海 519087) 


摘 要 人 脑 如 何 表征 语义 信息 一 直 以 来 是 认 知 神经 科学 的 核心 问题 。 传 统 研究 主要 通过 人 为 操纵 刺激 属性 
或 任务 要 求 等 实验 方法 来 定位 语义 表征 脑 区 ， 这 类 方法 虽然 取得 了 诸多 成 果 ， 但 是 依然 存在 难以 详细 量化 语 
义 信 息 和 语 境 效应 等 问题 。 基 于 语义 的 分 布 式 假设 ， 自 然 语 言 处 理 (NLP) 技 术 将 离散 的 、 难 以 客观 量化 的 语义 
信息 转变 为 统一 的 、 可 计算 的 向 量 形 式 ， 极 大 提高 了 语义 信息 的 刻画 精度 ， 提 供 了 有 效 量化 语 境 和 句法 等 信息 
的 工具 。 运 用 NLP 技术 提取 刺激 语义 信息 ， 并 通过 表征 相似 性 分 析 或 线性 回归 建立 语义 向 量 与 脑 活 动 模式 的 
映射 关系 ， 研 究 者 发 现 表 征 语 义 信 息 的 神经 结构 广泛 分 布 在 里 叶 、 额 叶 和 枕 叶 等 多 个 脑 区 。 未 来 研究 可 引入 
知识 图 谱 和 多 模 态 融合 模型 等 更 复杂 的 语义 表示 方法 ,将 语言 模型 用 于 评估 特殊 人 群 语言 能 力 , 或 利用 认 知 
神经 科学 实验 来 提高 深度 语言 模型 的 可 解释 性 。 

关键 词 ”语义 表征 ， 大 脑 ， 自 然 语言 处 理 , 语言 模型 
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语言 作为 一 种 抽象 符号 ,是 人 类 进行 意义 表 
达 和 信息 交流 的 最 重要 的 工具 。 基 于 有 限 数量 语 
言 单位 的 组 合 ， 人 们 可 以 理解 和 表达 无 穷 多 的 信 
县 ,包括 但 不 展 了 知识、 信念、 疏 图 、 和 情感 等 。 人们 只 需 掌握 少量 的 词语 即 可 满足 言语 交流 需求， 
BUS ARRIETA. MESRA EENAA eh 590 个 字 就 已 经 覆盖 了 80% 的 日 党 
神经 科学 的 核心 问题 之 一 。 为 了 探究 语义 表征 和 。 用 字 ( 中 华人 民 共和 国教 育 部 2013)。 有 限 的 文字 
加 工 的 神经 基础 ， 研 究 者 通常 采用 的 思路 是 操纵 能 够 组 合成 无 限 的 意思 ， 甚 原因 在 于 人 们 对 每 一 
刺激 属性 或 任务 要 求 ， 对比 不 同 条 件 下 脑 活动 模 词汇 都 构建 了 丰富 的 心理 表征 ,不 同 词汇 在 多 个 


制 和 条 件 间 对 比 的 研究 范式 取得 了 一 系列 重要 成 
AL, 然而 在 探究 语义 的 脑 表征 与 加 工 问题 上 存在 
以 下 局 限 。 

第 一 ， 对 语义 特征 的 刻画 依赖 人 工 评定 ， 且 
颗粒 度 较 粗 。 日 常生 活 中 交流 情境 复杂 多 变 , 但 


式 的 异同 。 例 如 ,在 词汇 判断 任务 中 对 比 真 词 与 维度 上 存在 微妙 差异 基于 心理 学 实验 或 语言 学 
假 词 激活 脑 区 的 差异 (Pulvermiiller，2013); 或 对 分 类 方法 ， 当 前 研究 对 语义 关系 的 度量 大 多 停留 
于 相同 语言 刺激 ,对 比 语义 与 语音 判断 任务 的 脑 ” 在 粗 颗粒 度 层 面 ,例如 区 分 名 词 与 动词 ， 生 命 类 
活动 差异 (Poldrack et al., 1999)。 基 于 严格 实验 控 与 非 生命 类 词 等 。 为 了 细 化 对 语义 的 表示 ， 最近 
有 研究 者 从 心理 维度 对 词语 概念 进行 度量 ， 例 如 
采用 时 间 、 空 间 、 数 量 、 唤 醒 度 等 12 个 维度 来 刻 
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内 的 65 个 体验 维度 来 表示 概念 (Binder et al., 
2016)。 基 于 心理 维度 的 语义 表示 方法 能 刻画 概念 
本 身 以 及 概念 间 的 关系 ,可 解释 性 较 高 ,， 但 仍 具 
有 一 定 的 局 限 性 。 例 如 ， 维 度 的 选取 由 研究 者 主 
观 确定 ， 维 度 选 取 的 合理 性 和 完整 性 有 待 检 验 。 
此 外 ,对 词义 的 量化 主要 通过 被 试 主观 判定 获得 ， 
结果 受 被 试 个 体 知识 与 经 验 的 影响 较 大 。 最 后 ， 
被 试 评定 法 耗 时 费力 , 难以 推广 至 所 有 的 词汇 ， 
难以 全 面 履 盖 不 同 语 境 下 词语 的 多 个 含义 ,并且 
不 同 研究 者 之 间 选 取 的 词 表 与 维度 有 所 不 同 ， 增 
加 了 研究 结果 间 的 比较 与 整合 难度 。 

第 二 , 语 境 效应 难以 量化 。 世 界 各 地 的 语言 
系统 里 ， 大 部 分 字 或 词 都 可 指 代 多 种 含义 ， 例 如 
在 英语 中 80% 以 上 的 单词 都 存在 一 词 多 义 现象 
(Rodd et al., 2002)。 在 真实 情境 下 , 个 体 所 激活 的 
语言 符号 含义 很 大 程度 上 取决 于 语 境 ， 换 言 之 
对 语言 符号 意义 的 表征 和 提取 是 动态 的 、 依 赖 语 
境 的 (Yee & Thompson-Schill, 2016), 例如 在 夏天 
和 冬天 提 到 “空调 ”时 会 倾向 于 联想 到 相反 的 功 
能 。 然而， 由 于 语 境 本 身 的 复杂 性 ， 很 难 通过 实验 
设计 手段 对 语 境 效应 进行 客观 度量 。 因 此 ， 当 前 
大 多 数 研 究 使 用 孤立 呈现 的 语言 刺激 、 打 散 句 法 
或 语义 的 句子 等 高 度 控制 的 材料 , 但 它们 与 日 常 
生活 中 的 语言 使 用 相 比 仍 有 一 段 距 离 。 要 回答 关于 
人 脑 如 何 表征 与 加 工 语 境 ， 以 及 语义 表征 如 何 受 
语 境 信息 的 动态 影响 等 问题 仍 面临 着 较 大 的 挑战 。 

第 三 , 篇 章 (discourse) 主 题 信 息 难 以 量化 。 篇 
章 ( 例 如 新 闻 报道 故事) 由 词 和 句子 以 复杂 的 关系 
连接 而 成 , 不 同 部 分 间 存 在 语义 关联 ， 能 表达 完 
整 连贯 的 含义 (主题 ), 为 了 探究 对 篇 章 语义 信息 的 


AR, 特别 是 基于 人 工 神经 网 络 和 深度 学 习 的 语言 
模型 ， 以 度量 实验 刺激 的 语义 及 语义 关系 。 将 
NLP 模型 与 脑 成 像 实验 数据 相 结合 ,正在 成 为 神 
经 语言 学 领域 的 重要 趋势 。 近 期 有 部 分 国内 外 研 
究 者 对 计算 语言 学 方法 在 认 知 语言 学 和 脑 科学 中 
的 应 用 进行 了 总 结 和 展望 ,例如 ， 王 少 楠 等 (2022b) 
总 结 了 新 兴 计 算 语言 学 方法 在 语言 信息 的 单元 和 
维度 、 不 同类 型 语言 信息 的 脑 网 络 定位 、 语 言 信 
息 加 工 的 时 间 进 程 和 控制 以 及 语言 信息 的 神经 编 
码 形式 与 计算 机 制 等 问题 上 的 应 用 , 文章 所 探讨 的 
语言 信息 包括 了 语音 、 语 义 、 句 法 结构 等 多 方面 内 
容 。 在 另 一 篇 文章 中 ( 王 少 楠 等 ,2022a), 作者 从 宏 
观 角度 系统 地 讨论 了 认 知 语言 学 与 计算 语言 学 各 
自 的 研究 问题 、 研 究 方法 和 局 限 性 ， 并 就 这 两 大 
领域 如 何 融 合 提 出 了 深刻 见解 。 还 有 研究 者 将 现 
代 分 布 式 语义 计算 模型 与 认 知 心理 学 中 的 两 类 传 
统 语义 模型 (基于 特征 的 语义 模型 和 基于 联结 网 
络 的 语义 模型 ) 在 知识 表征 、 学 习 机 制 和 语义 解 歧 
等 方面 进行 了 深入 对 比 ， 并 探讨 了 现代 语义 计算 
模型 与 两 类 传统 模型 的 结合 途径 (Kumar, 2021)。 

上 述 研究 在 宏观 角度 概括 了 计算 语言 学 方法 
在 语言 认 知 中 的 广泛 应 用 , 但 未 就 具体 问题 进行 
系统 总 结 和 详细 论述 。 本 综述 拟 聚 焦 语言 认 知 和 
脑 科 学 领域 的 核心 问题 之 一 一 一 人 脑 对 语义 信息 
的 表征 ， 对 NLP 模型 在 该 问题 上 的 应 用 进行 总 结 
与 展望 。 本 综述 将 首先 介绍 NLP 模型 表征 语义 的 
原理 与 技术 ， 并 介绍 语言 模型 与 脑 成 像 数 据 进行 
结合 的 两 类 方法 ; 在 此 基础 上 ， 系 统 阐 述 NLP 技 
术 在 人 脑 语义 表征 研究 中 的 应 用 , 包括 单词 语 
义 、 句 子 (及 语 境 ) 语 义 和 篇 章 语 义 ， 并 与 传统 心理 


加 工 和 表征 ， 心 理学 研究 者 通常 将 完整 篇 章 与 同 
一 篇 章 在 不 同 水 平 (词句 子 或 段落 ) 打 乱 后 的 材料 
进行 对 比 (Hasson et al., 2008; Lerner et al., 2011; 
Simony et al., 2016)。 然 而 ， 打 乱 后 的 材料 在 节点 
处 的 复杂 度 与 难度 更 大 (可 能 引起 更 强 的 脑 激活 )， 
人 们 会 倾向 于 尝试 重新 组 织 与 整合 打 乱 的 材料 以 
使 其 语义 连贯 ， 因 此 条 件 间 相 减 的 方式 可 能 无 法 
准确 检测 到 特异 于 篇 章 的 语义 加 工 。 此 外 ， 该 实 
验方 法 难以 度量 篇 章 内 不 同 部 分 的 语义 结构 关系 
以 及 不 同 篇 章 之 间 的 语义 距离 。 

鉴于 心理 学 传统 实验 方法 的 局 限 性 ， 近 年 来 
越 来 越 多 的 心理 学 研究 者 引入 人 工 智 能 领域 的 自 
然 语言 处 理 (natural language processing，NLP) 技 


学 方法 度量 语义 的 局 限 之 处 进行 对 比 ; 最 后 ， 探 
讨 应 用 NLP 语言 模型 探究 人 脑 语义 表征 的 潜在 陷 
阱 、 挑 战 和 未 来 发 展 方向 。 


2 NLP 语义 表示 的 算法 原理 及 进展 


如 何 让 计算 机 从 文本 中 自动 捕获 语义 是 计算 
语言 学 领域 的 核心 问题 之 一 。 早 期 研究 者 提出 了 
基于 逻辑 规则 的 方法 对 自然 语言 进行 建 模 (Chomsky， 
1957; Hobbs, 1977), 希望 计算 机 像 人 一 样 根据 句 
法 、 词 语 顺 序 和 搭配 等 规则 理解 词语 的 含义 。 尽 
管 该 方法 的 精度 较 高 , 但 它 高 度 依赖 人 工 编制 的 
语言 学 文法 , 不 适合 处 理 大 规模 真实 文本 (尤其 是 
在 词语 新 用 法 、 新 含义 越 来 越 多 的 互联 网 时 代 )， 
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且 不 同 语言 之 间 的 规则 不 尽 相 同 。 后 来 ， 由 于 规 
则 表示 存在 许多 问题 ， 统 计 学 派 基 于 “上 下 文 相 
似 的 词语 ， 其 语义 也 相似 ”的 分 布 式 语义 假设 
(Harris, 1954), 提出 了 语义 的 向 量 空 间 模 型 (Salton 
et al., 1975), 它 成 为 了 NLP 领域 近 十 余年 来 的 主流 
指导 思想 ， 即 分 布 式 表示 (distributed representation), 
这 一 思想 是 把 词语 这 一 离散 符号 (局 部 表示 ,local 
representation) 映 射 到 一 个 稠密 的 向 量 空间 中 ， 从 
而 使 用 一 个 相对 低 维 的 向 量 (例如 300 ERE 
玖 且 高 达 几 十 万 维 的 独 热 向 量 (Bengio et al., 
2003)。 例 如 关于 颜色 的 局 部 表示 为 “ 红 、 橙 、 黄 、 
灰 .中 国 红 …… ”([1 0, 0, 0, 0], [0, 1, 0, 0, 0], [0, 0， 
1, 0, 0], [0, 0, 0, 1, 0], [0, 0, 0, 0, 1])， 而 用 分 布 式 
表示 则 可 将 所 有 颜色 统一 到 RGB 三 维 向 量 上 ( 例 
如 灰色 可 表示 为 [125，125，125])， 大 大 减少 了 向 
量 维度 。 在 分 布 式 表示 中 , 语义 信息 隐 含 在 词 向 
量 的 各 个 维度 上 , 词语 间 的 语义 关系 主要 由 它们 
在 空间 中 的 位 置 关 系 反映 : 两 个 词 向 量 越 接 近 ， 
语义 相似 性 越 高 。 

在 语义 空间 的 构建 与 词 向 量 的 获得 方面 ， 当 
前 主要 有 两 类 思路 。 一 类 是 基于 统计 的 语义 表示 
方法 ， 该 方法 主要 基于 语料库 对 “ 词 - 词 或“ 词 - 
文档 ”等 的 共 现 关系 进行 统计 , 算法 包括 法 语义 分 
析 (latent semantic analysis, LSA, Deerwester et al., 
1990; Dumais, 2004), JE fi 4E 4:2) ff# (non-negative 
matrix factorization, Lee & Seung, 1999) .基于 马尔 
可 夫 假 设 的 N-gram (Brown et al., 1992) 等 ,以 LSA 
为 例 ， 该 方法 通过 统计 文本 语 料 建立 “ 词 -文档 ” 
共 现 矩阵 Awa GEP w 是 词 数 , d 是 文档 数 )， 然 后 
对 共 现 矩阵 进行 奇异 值 分解 Auxa =U src Erer rra 
构建 潜 语 义 空间 并 实现 降 维 ( 公 式 中 x 即 为 潜 语 
AZ BEZO o JERE U 中 每 一 行为 词语 的 潜 语 义 表 
示 ( 即 词 向 量 ), 矩阵 VT 中 的 每 一 列 为 文档 的 潜 语 
LRI, 和 矩阵 过 中 的 奇异 值 反映 了 每 一 潜 语 义 的 
重要 程度 。 如 此 一 来 , 词 和 文档 的 信息 得 到 浓缩 ， 


计算 复杂 度 高 ,并且 当 加 入 新 的 文档 时 ， 需 重新 
训练 来 更 新 模型 ; 未 能 充分 考虑 句子 中 词语 的 先 
后 顺序 信息 ; 不 能 解决 一 词 多 义 现象 等 。 
与 基于 统计 的 方法 不 同 ， 另 一 类 基于 预测 的 
语义 建 模 方 法 使 用 神经 网 络 学 习 语义 表示 ,通过 
计算 预测 值 与 真实 值 的 差异 来 调整 模型 参数 ( 关 
于 语义 建 模 方 法 的 其 他 分 类 标准 ,请 参阅 Kumar, 
2021)。 人 工 神经 网 络 (artificial neural network, ANN, 
下 文 简 称 神经 网 络 ) 是 通过 模拟 人 脑 神 经 系统 对 
复杂 信息 处 理 机 制 而 构建 的 一 种 数学 模型 
(Mcculloch & Pitts, 1943)。 神 经 网 络 由 神经 元 ( 节 
点 ) 互 相连 接 ( 边 ) 而 构成 ， 按 先后 顺序 主要 分 为 输 
入 层 、 隐 藏 层 和 输出 层 。 输 入 层 主要 进行 信号 接 
收 与 激活 (例如 提取 词语 对 应 的 词 向 量 ， 类 比 于 外 
界 刺激 引起 初级 感觉 区 的 电 生理 活动 ); 隐藏 层 是 
神经 网 络 的 核心 ， 主 要 进行 信号 的 加 工 、 整 合 和 
抽象 化 等 复杂 过 程 (类 比 于 大 脑 中 间 神 经 元 、 联 合 
皮层 和 高 级 决策 皮层 等 ); 输出 层 在 接收 隐藏 层 加 
工 后 的 信号 后 ,根据 任务 需求 进行 最 后 一 步 的 反 
应 输出 (例如 对 词语 进行 情绪 分 类 等 ,类比 于 大 脑 
发 音 皮 层 、 运 动 皮层 )。 与 大 脑 神经 元 动作 电位 的 
特性 相似 ， 人 工 神 经 网 络 隐藏 层 中 的 神经 元 接收 
上 游 多 个 神经 元 信号 后 (类 比 大 脑 神经 元 树 突 )， 
按照 不 同 的 权重 进行 加 权 求 和 (类 比 胞 体 )， 随 后 
根据 汇总 后 的 信号 是 否 高 于 激活 阔 限 来 决定 是 否 
向 下 游 传 出 信号 以 及 信号 的 强度 (一 般 经 过 
sigmoid、ReLU 等 非 线性 激活 函数 完成 )， 后 续 隐 
藏 层 的 工作 过 程 以 此 类 推 。 值 得 注意 的 是 ， 隐 藏 
层 中 每 个 神经 元 与 上 游 各 个 神经 元 之 间 的 信息 权 
重 是 不 同 的 ， 这些 参数 由 神经 网 络 输出 值 与 真实 
值 的 误差 通过 反 向 传播 算法 不 断 调整 。 通 过 多 次 
训练 不 断 缩小 预测 值 与 真实 值 的 差距 ,神经 网 络 
建立 起 原始 输入 信号 与 目标 输出 间 的 映射 关系 ， 
最 终 的 学 习 结果 体现 在 各 个 神经 元 的 参数 上 。 
在 词语 的 向 量 表示 问题 上 ,神经 网 络 通常 使 


映射 到 了 统一 的 潜 语 义 空间 中 , 既 可 以 用 于 词语 
的 语义 表示 ,也 可 以 用 于 表示 篇 章 和 文档 的 语 
义 。 基 于 统计 的 语义 表示 方法 能 有 效 聚 类 语义 相 
近 的 词 或 文档 , 在 语义 相似 性 分 析 、 词 (或 文档 ) 
聚 类 、 信 息 提 取 等 任务 上 取得 了 良好 的 成 绩 (Jelodar 
et al., 2019; Xu et al., 2008)。 但 该 方法 也 具有 明显 
的 局 限 性 ， 例 如 词 ( 或 文档 ) 向 量 的 分 布 不 一 定 符 
合 概率 模型 假设 所 要 求 的 正 态 分 布 ; 矩阵 分 解 的 


— 


大 规模 语 料 来 训练 网 络 权 重 , 输入 句子 材料 以 
学 习 词 语 和 上 下 文 语 境 的 关系 。 以 经 典 的 Word2Vec 
中 的 连续 词 袋 (continuous bag-of-word, CBOW) 模 
型 为 例 (Mikolov et al., 2013a)， 该 模型 基于 分 布 式 
假设 而 设计 (上 下 文 相似 的 词语 意思 也 相似 )， 给 
定 前 后 共 k 个 上 下 文 语 境 词 ， 预 测 中 间 的 目标 词 。 
输入 层 为 词 的 独 热 编 码 向 量 ， 通 过 输入 层 与 隐藏 
层 的 权重 和 矩阵 提取 词语 的 词 向 量 ,随后 将 该 向 量 


= 
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与 隐藏 层 输出 层 之 间 的 权重 矩阵 进行 点 乘 并 使 
softmax 函数 进行 归 一 化 , BT PA Tid hA 
概率 , 选取 概率 最 高 的 词语 作为 预测 结果 ( 见 图 1)。 
通过 计算 预测 词 与 真实 词 的 词 向 量 差异 并 由 反 上 向 
传播 进行 参数 调整 ， 输 入 层 和 隐藏 层 之 间 的 权重 
( 即 词 向 量 ) 得 以 不 断 更 新 。 此 外 , Word2Vec 也 可 以 
使 用 跳 字 模型 (skip-gram) 进 行 训练 ， 即 给 出 一 个 
目标 词 ， 预 测 其 上 下 文 (向 前 、 向 后 共 k 个 词 )。 
Word2Vec 模型 获得 的 词 向 量 与 分 布 式 假设 吻合 
较 好 ， 对 词 向 量 进行 聚 类 的 结果 合理 ， 且 能 较 好 
地 反映 语义 相似 度 (Mikolov et al., 2013a; Mikolov 
et al., 2013b)。 例 如 ,计算 向 量 V(t) = VEE) - 
V( 男 人 )+ V( 女 人 ), 得 到 的 V(t) 会 与 V( 女 王 ) 等 相 
关 词 语 的 词 向 量 余弦 相似 度 最 高 。 

Word2Vec 模型 提出 以 后 , NLP 领域 掀起 了 词 


a 


iT 


输入 层 隐藏 层 


001000000000.…0 


000000000100---0 


000000010000--- 


Wr 


向 量 计算 与 优化 表示 的 热潮 ， 后 续 研 究 者 设计 了 
一 系列 架构 更 复杂 的 神经 网 络 语言 模型 ， 它 们 在 
计算 词 向 量 时 考虑 了 上 下 文 语 境 的 信息 ， 更 符合 
人 脑 整合 语 境 的 认 知 模式 。 新 开发 的 神经 网 络 模 
型 还 可 以 对 句子 和 篇 章 语 义 进行 建 模 ， 代 表 性 模 
型 包括 : 可 捕获 句子 的 结构 信息 的 递归 神经 网 络 
(recursive neural network, RecNN, Socher et al., 
2013); 循环 神经 网 络 (recurrent neural network, 
RNN, Elman, 1990; Mikolov et al., 2010) 及 其 优化 
版 本 长 短 时 记忆 网 络 (long short-term memory, LSTM, 
Hochreiter & Schmidhuber, 1997; Sundermeyer et al., 
2012), 把 句子 看 作 一 个 有 顺序 的 时 间 序 列 , 将 上 
(下 ) 文 信息 整合 到 当前 词语 的 向 量 表示 中 (Graves 
et al., 2013); 卷 积 神经 网 络 (convolutional neural 
network)， 提 取 多 层次 的 语义 信息 并 具备 更 高 效 


输出 层 概率 分 布 预测 结果 


如 | 000100000000…0 


All CBOW 训练 示意 图 
WÈ: 对 于 要 要 预测 的 目标 词 We, 选取 向 前 、 向 后 共 个 上 下 文 词语 作为 语 境 (一 般 情 况 下 上 下 文 窗口 长 度 相等 ), 经 


过 输入 层 和 隐藏 层 的 权重 矩阵 提取 它们 的 词 向 量 进 行 求 和 ， 随 后 将 新 生成 的 词 向 量 与 隐藏 层 -输出 层 的 权重 矩阵 进 
行 点 乘 ， 再 经 过 softmax 计算 得 到 词 表 ( 大 小 为 N) 中 各 个 词 出 现 的 概率 ,选取 概率 最 大 的 词语 作为 预测 结果 。 


skip-gram 模型 略 有 不 同 , 输入 目标 词 We, 预测 其 上 下 文 。 
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的 并 行 运算 能 力 (Yin et al., 2017; Zhang & Wallace, 
2017)。 除 了 词语 ， 基 于 神经 网 络 的 算法 也 可 以 对 
段落 或 篇 章 的 语义 进行 表示 , 例如 Doc2Vec 在 
Word2Vec 模型 的 基础 上 加 入 一 个 段 内 共享 、 段 间 
独立 的 段落 向 量 进行 训练 ， 从 而 获得 段落 的 问 量 
化 语义 表示 (Quoc & Mikolov, 2014)。 其 他 思路 还 
有 层次 化 特征 提取 等 ,例如 首先 计算 段落 内 每 句 
话 的 语义 表示 得 到 名 向 量 ， 再 以 句 向 量 为 单位 输 
人 模型 得 到 段落 向 量 。 

后 来 谷歌 公司 提出 了 Transformer 架构 (Vaswani 
et al., 2017), 解决 了 RNN 及 其 变 体 的 长 距离 依赖 
和 串 行 训练 低 效 等 局 限 ， 成 为 了 近年 来 NLP 新 模 
型 的 主流 网 络 骨 干 。Transformer 架构 由 编码 器 和 
解码 器 组 成 ， 每 个 编码 器 和 解码 器 中 包含 了 自 注 
意 力 层 (multi-head self-attention) 和 全 连接 层 ， 其 
中 自 注 意 力 层 通过 对 目标 词 与 上 下 文 词语 的 相似 
性 进行 计算 与 加 权 求 和 来 整合 语 境 信息 ， 随 后 经 
过 全 连接 层 提 取信 息 的 特征 。Transformer 架构 中 
的 自 注 意 力 机 制 代 替 了 RNN 结构 中 的 串 行 记 忆 
单元 , 使 得 计算 可 以 高 速 并 行 化 , 并 且 Transformer 
力 构 通 过 多 个 编码 器 和 解码 器 的 堆 苹 提升 了 对 文 
本 特征 的 提取 与 抽象 效果 。 基于 Transformer 架构 
的 代表 性 语言 模型 包括 BERT (Bidirectional Encoder 


Representation from Transformers, Devlin et al., 2018) 


与 GPT (Generative Pre-trained Transformer, Brown 
et al., 2020; Radford et al., 2019) 等 ,它们 在 许多 自 
然 语言 处 理 任务 上 的 表现 都 取得 了 较 大 的 提升 。 
基于 深度 神经 网 络 的 语义 建 模 方 法 的 参数 庞大 
(例如 BERT-large 模型 中 有 3 亿 参 数 需要 训练 ， 
GPT-3 的 参数 量 则 高 达 1750 亿 )， 对 语 料 数据 量 、 
计算 机 性 能 等 要 求 较 高 。 因 此 预 训 练 成 为 了 目前 
大 规模 语言 模型 的 主流 使 用 方式 , 将 模型 在 某 个 
语言 任务 上 进行 大 量 训练 (例如 完 形 填 空 ) 以 得 到 
模型 参数 ,各 组 研究 者 以 这 一 套 模型 参数 为 基础 
开展 下 游 任务 。 预 训练 模型 降低 了 研究 团队 训练 
模型 的 技术 与 时 间 成 本 ,并 提升 了 语言 认 知 研究 
的 可 比 性 与 可 重复 性 。 

相 较 于 传统 基于 统计 的 语义 表示 方法 ,神经 
网 络 模型 能 捕获 更 丰富 的 文本 特征 , 通用 性 更 强 ， 
在 完 形 填 空 、 情 感 分 析 、 构 建文 摘 、 翻 译 等 多 种 
复杂 语言 任务 中 具有 更 优秀 的 表现 (Sutskever et al., 
2014; Wu & Dredze, 2019)。 此 外 ， 大 规模 预 训 练 
模型 (例如 BERT) 将 学 习 到 的 多 种 语言 信息 都 草 


藏 在 其 参数 中 ， 研 究 者 可 根据 自身 需要 对 预 训练 
模型 进行 微调 ， 从 而 以 较 低 的 资源 消耗 获得 针对 
专门 任务 的 更 优 模型 表现 。 随 着 计算 机 算 力 的 不 
断 提升 ,以 上 优势 与 表现 使 得 神经 网 络 模型 逐步 
取代 传统 基于 统计 的 文本 表示 方法 , 成 为 NLP 领 
域 的 核心 技术 之 一 。 关于 NLP 中 的 文本 表示 方法 
更 详细 的 介绍 请 参阅 赵 京 胜 等 (2022)。 


3 NLP 语言 模型 在 人 脑 语义 表征 研究 
中 的 应 用 


3.1 NLP 语言 模型 与 脑 成 像 数 据 的 结合 方法 

NLP 语言 模型 提供 了 客观 度量 与 计算 文本 语 
义 的 有 效 工 具 。 利 用 该 工具 ,神经 语言 学 研究 者 
可 以 进一步 分 析 语义 信息 在 多 大 程度 上 解释 了 脑 
活动 模式 的 变化 ,从 而 推论 出 哪些 脑 区 参与 了 语 
义 信 息 的 表征 与 加 工 。 值 得 注意 的 是 , NLP 语言 模 
型 得 出 的 词 向 量 与 脑 活动 数据 来 自 不同 的 模型 与 
模 态 , 各 自 数据 的 维度 和 数值 代表 的 含义 截然 不 
同 。 例 如 ，BERT 输出 层 的 向 量 为 768 维 (BERT- 
base) 或 1024 维 (BERT-large), 每 一 维 的 数值 含义 
不 明确 。 脑 活动 的 数据 维度 则 根据 选取 的 脑 区 大 
小 而 有 所 不 同 ， 从 一 维 (voxel KE), 几 百 (ROI 水 
平 )， 几 千 ( 网 络 水 平 )， 到 几 万 (全 脑 水 平 ) 不 等 。 如 
何 对 这 两 类 维度 不 同 的 多 变量 数据 进行 有 效 建 模 
是 一 个 具有 挑战 性 的 问题 ， 当 前 有 两 种 常用 的 方 
法 : 表征 相似 性 分 析 (representation similarity analysis, 
RSA) 与 线性 回归 。 

RSA 通过 分 析 语 义 相似 性 矩阵 和 脑 活动 相似 
性 矩阵 的 共享 结构 ， 建立 起 两 类 数据 的 关联 
(Kriegeskorte et al., 2008)。 进 行 RSA 分 析 时 ， 首 
先 需 要 分 别提 取 人 脑 和 NLP 语言 模型 对 于 各 个 刺 
激 (例如 单词 ) 的 表征 ,其 中 脑 表征 可 由 给 定单 词 
引发 的 一 组 体 素 的 活动 强度 数据 表示 ,NLP 模型 
表征 可 由 Word2Vec (或 其 他 模型 ) 对 该 单词 的 词 
向 量 表 示 。 随 后 分 别 计算 人 脑 和 语言 模型 内 部 对 
于 不 同 刺激 的 表征 相似 性 程度 (可 用 相关 系数 、 欧 
式 距离 或 马 氏 距离 等 不 同 指 标 度量 )， 从 而 构建 表 
{E 2 S JE PE (representation dissimilarity matrix, 
RDM). RDM 反映 了 同一 个 模型 对 于 不 同 刺激 的 
表征 的 差异 , 通过 计算 两 个 RDM 之 间 的 Spearman 
相似 性 ， 得 到 的 相关 系数 反映 人 脑 和 语言 模型 对 
于 同一 组 刺激 的 内 部 表征 相似 程度 ( 见 图 2)。 

线性 回归 是 另 一 种 关联 不 同类 型 高 维 数据 的 
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刺激 1 
( 刺激 2 


图 2 表征 相似 性 计算 示意 图 。 
注 : 中 间 上 部 表示 大 脑 加 工 不 同 刺激 时 的 脑 活 动 ; 中 间 
下 部 表示 用 于 对 比 的 模型 对 每 个 刺激 的 向 量 表示 。 此 处 
的 向 量 既 可 以 是 NLP 模型 的 词 向 量 ， 也 可 以 是 被 试 在 
某 些 维度 上 的 评分 等 多 种 特征 。 右 列 是 表征 不 相似 性 矩 
阵 (RDM), 通过 计算 脑 活动 或 模型 向 量 在 刺激 间 的 两 
两 不 相似 性 得 到 。 计 算 两 个 RDM 上 三 角 的 Spearman 
相关 系数 ， 即 为 大 脑 与 模型 的 表征 相似 性 。 


方法 , 它 的 基本 思想 是 寻找 一 组 参数 去 拟 合 两 组 
数据 之 间 的 关系 ， 从 而 基于 刺激 特征 或 模型 输出 
向 量 “ 预 测 ” 大 脑 反 应 (编码 ), 或 基于 脑 活动 模式 
“预测 ”被 试 当前 正在 加 工 的 内 容 (解码 )。 在 多 种 线 
性 回归 方法 中 , 岭 回 归 是 最 常用 的 一 种 ， 它 可 以 
解决 过 拟 合 与 多 重 共 线性 等 问题 。 最 近 有 不 少 研 
究 发 现 ， 对 于 同一 语言 信息 ， NLP 模型 向 量 可 以 
通过 岭 回 归 与 脑 活动 建立 映射 关系 ( 王 少 楠 等 ， 
2022b; Anderson et al., 2021; Caucheteux & King, 
2022; Dupre la Tour et al., 2022; Goldstein et al., 
2022; Jain & Huth, 2018; Prince et al., 2022; 
Schrimpf et al., 2021), 若 模 型 和 人 脑 存在 相同 或 
相似 的 表征 信息 ， 岭 回归 预测 值 与 真实 值 之 间 将 
会 具有 显著 相关 性 。 

RSA 和 上 岭 回 归 都 可 以 比较 不 同 模型 与 脑 表 征 
的 关系 , 但 它们 在 原理 和 功能 上 有 所 差异 (Bruffaerts 


进行 网 格 搜索 ,因此 计算 量 较 大 并 且 对 数据 量 的 
要 求 较 高 。 针 对 RSA 和 上 岭 回 归 方 法 各 自 的 优 缺 点 
Anderson et al. (2016) 提 出 了 表征 相似 性 编码 方 
法 。 该 方法 基于 “相似 的 刺激 会 引发 相似 的 脑 活 
动 * 这 一 思想 ,首先 计算 待 预测 目标 与 所 有 已 知 
目标 的 特征 相似 性 ， 随 后 将 相似 性 指标 作为 权重 
对 已 知 目 标 诱发 的 脑 活 动 值 进行 加 权 平 均 ， 从 而 
得 到 预测 目标 的 脑 活 动 值 。 该 方法 利用 刺激 间 的 
相似 性 信息 进行 预测 ， 避 免 了 对 模型 的 参数 估计 ， 
计算 快捷 且 回 归 模 型 中 的 参数 (相似 性 ) 具 有 较 强 
的 可 解释 性 ， 具有 较 大 的 应 用 价值 (Anderson et al., 
2021; Wang et al., 2020)。 值 得 注意 的 是 ， 对 于 RSA 
或 岭 回 归 中 预测 值 与 真实 值 的 相关 系数 的 解读 需 
要 谨慎 ， 显著 的 相关 系数 只 能 说 明 模 型 与 大 脑 的 
表征 信息 存在 相似 之 处 ， 并 不 能 直接 推断 二 者 背 
后 的 工作 机 制 是 相同 的 ,尤其 是 相关 系数 较 低 的 
情况 下 (Kriegeskorte & Douglas, 2018, 2019). 
3.22 ”典型 应 用 
3.2.1 ” 词 水 平 语义 的 表征 

语言 作为 思想 的 载体 ， 其 中 蕴含 的 有 意义 信 
息 由 哪些 脑 区 加 工 、 如 何 加 工 一 直 是 认 知 神经 科 
学 关注 的 问题 。 早 期 语义 表征 的 研究 主要 通过 比 
较 被 试 接受 不 同 刺 激 或 进行 不 同 任务 时 的 大 脑 激 
活 差 异 , 探究 词语 或 概念 在 哪些 脑 区 进行 加 工 
例如 真 假 词 (Pulvermiiller et al., 2001)、 词 语 类 别 
(Gonzalez et al., 2006; Pulvermiiller et al., 2009), 
词性 (Pulvermiiller et al., 1999; Warburton et al., 
1996), 语义 任务 和 语音 任务 (Poldrack et al., 1999) 
的 对 比 等 。 条 件 对 比 范式 与 激活 分 析 取 得 了 不 少 
重要 发 现 , 但 对 语义 信息 的 刻画 主要 停留 在 粗 颗 
粒度 层面 且 难 以 量化 。NLP 技术 使 得 研究 者 能 从 
定量 角度 对 材料 的 语义 信息 进行 度量 ， 探 究 语义 
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et al., 2019)。RSA 度量 的 是 NLP 模型 反应 模式 与 
大 脑 中 一 组 体 素 ( 或 脑 区 ) 反 应 模式 间 的 相似 性 程 
度 ， 而 岭 回 归 旨 在 建立 特征 (或 模型 向 量 ) 与 单个 
体 素 (或 脑 区 ) 活 动 之 间 的 回归 关系 。RSA 方法 不 


信息 与 大 脑 表 征 之 间 的 关联 。 

在 早期 的 工作 中 ，Mitchell 等 人 (2008) 选 取 名 
词 刺激 作为 材料 , 使 用 它们 与 25 个 代表 性 动词 的 
共 现 频率 作为 语义 向 量 表示 , 通过 线性 回归 对 大 


需要 对 参数 进行 拟 合 , 因此 计算 量 小 、 对 数据 量 
要 求 相 对 较 低 。 但 该 方法 将 所 有 特征 作为 一 个 整 
体 , 无 法 估计 单一 特征 对 脑 活动 的 贡献 程度 。 岭 
回归 方法 能 获取 单一 特征 对 脑 活动 的 权重 值 ， 进 
而 可 根据 新 刺激 的 特征 预测 其 激活 模式 ,在 使 
连续 自然 刺激 的 任务 中 较为 常见 。 但 该 方法 需要 
估计 的 自由 参数 较 多 , IF EL FEE ee BET ART ARB 
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脑 加 工 名 词 时 的 活动 进行 预测 。 结 果 发 现 双 侧 枕 
叶 、 顶 叶 、 额 中 回 等 区 域 都 能 够 区 分 词语 ， 说 明 
大 脑 对 实体 名 词 的 表征 一 定 程 度 上 基于 感觉 运动 
特征 ， 其 中 枕 叶 的 效应 可 能 是 因为 被 试 对 名 词 的 
相关 动作 场景 产生 了 联想 。 该 研究 开创 了 NLP 与 
脑 成 像 技 术 相 结合 的 先河 ， 为 语义 脑 表征 研究 提 
供 了 条 件 对 比 范式 以 外 的 新 思路 。 近 期 研究 者 开 
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始 将 NLP 方法 应 用 到 对 自然 连续 语言 材料 (例如 
故事 或 电影 音频 ) 的 语义 分 析 中 (Huth et al., 2016; 
Wehbe et al., 2014)， 相 比 于 传统 的 实验 室 方 法 (人 
为 编制 或 挑选 少量 特定 的 语言 刺激 )， 这 些 自然 连 
续 材 料 包 含 的 词汇 量 更 大 、 类 型 更 丰富 ， 因 此 得 
出 的 结果 可 能 更 能 反映 真实 的 人 脑 语义 表征 。 例 
如 在 Huth 等 人 (2016) 的 研究 中 ,被 试 收听 了 长 达 


如 入 们 看 到 “女排 "一 词 的 心理 表征 与 “中 国 女排 ” 
会 有 所 不 同 , 后 者 的 “女排 "在 “中 国语 境 下 可 能 
会 激活 自 附 感 、 具 体 的 人 物 形 象 等 额外 信息 。 已 
有 研究 表明 ， 苯 叶 前 部 、 额 项 网 络 等 脑 区 会 整合 
并 更 新 当前 的 语义 信息 (Bonnici et al., 2016; Branzi 
et al., 2020; Humphreys et al., 2021; Lambon Ralph 
et al., 2017)， 进 一 步 说 明了 语义 表征 的 动态 性 。 语 


2 个 小 时 的 故事 并 同步 进行 fMRI 扫描 。 研究 者 首 
先 标 记 每 个 TR (repetition time) 内 出 现 的 刺激 ， 提 
取 这 些 刺激 对 应 的 词语 共 现 向 量 作为 该 TR 的 语 
义 表 示 ， 随 后 构建 岭 回 归 预 测 模型 ， 使 用 语义 表 


i 


境 独 立 的 实验 设计 或 静态 词 向 量 并 不 能 充分 地 刻 
画 丰 富 语 境 下 的 语义 表征 , 尤其 是 面临 一 词 多 义 
现象 时 。 

NLP 技术 提供 了 能 够 整合 语 境 的 多 种 深度 语 


示 向 量 预测 大 脑 每 个 体 素 的 活动 。 若 某 个 体 素 的 
预测 相关 性 经 过 多 重 比较 校正 后 依然 显著 ， 说 明 
它 的 活动 蕴含 了 语义 信息 ， 即 参与 了 语义 表征 。 
结果 表明 ,语义 信息 在 大 脑 中 的 表征 分 布 覆盖 了 


言 模型 ,例如 ELMo (Peters et al., 2018), InferSent 
(Conneau et al., 2017). BERT 等 ， 对 于 同一 个 词 ， 
模型 输出 的 语义 向 量 能 随 着 语 境 的 不 同 而 变化 。 

利用 该 特点 ， 有 研究 者 比较 了 孤立 词 和 整合 语 境 


AREA PTB]. STIR GE PE, 5 
元 分 析 发 现 的 语义 网 络 (Binder et al., 2009) 高 度 重 
者。 这 些 人 研究 成 果 表 明 NLP 对 语义 的 表示 能 够 有 
效 地 运用 在 复杂 的 自然 刺激 中 ,并 进一步 支持 了 
语义 的 分 布 式 表征 观点 (Kiefer & Pulvermiiller, 2012; 
Nastase et al., 2017)， 即 多 个 脑 区 共同 加 工 、 表 征 
语义 , 而 非 集中 在 某 一 局 部 区 域内 。 

此 外 , NLP 技术 对 词汇 语义 的 量化 功能 使 研 
究 者 能 够 从 更 精细 的 角度 考察 语义 表征 ,拓宽 了 
研究 空间 。 例 如 Kivisaari 等 人 (2019) 考 察 了 人 们 
对 概念 的 表征 与 概念 特征 之 间 的 联系 ,在 研究 中 
向 被 试 逐 一 呈现 目标 概念 的 3 个 特征 词 (例如 “一 
种 水 果 ”、“ 被 妙 开 ”、“ 猴 子 吃 它 ”), 被 试 需要 根据 
这 些 特征 猜想 对 应 的 概念 (例如 “ 香 兢 ”)。 人 研究 者 使 
用 大 脑 体 素 活动 模式 对 特征 词 或 目标 词 的 词 向 量 
进行 解码 ， 并 比较 蕴含 不 同 信息 的 词 向 量 的 解码 
正确 率 。 结 果 表明 ,尽管 被 试 只 看 到 了 3 个 特征 
词 , 但 将 目标 概念 的 所 有 特征 (包括 没有 呈现 的 特 
征 ) 对 应 的 词 向 量 相 加 后 得 到 了 最 高 的 解码 正确 
K, 显著 高 于 呈现 的 特征 词语 和 目标 概念 , 说 明 
人 脑 利 用 有 限 的 信息 片段 构建 了 目标 对 象 完整 的 语 
义 表 征 , 并 且 激 活 了 其 他 相关 联 的 概念 特征 信息 。 
3.2.2” 语 境 信息 的 影响 以 及 句 水 平 语义 表征 

在 探究 语义 在 大 脑 中 的 表征 时 , 许多 研究 将 
词语 或 目标 刺激 单独 呈现 , 希望 获得 没有 其 他 信息 
干扰 下 的 语义 表征 。 然 而 语义 表征 是 动态 的 (Yee & 
Thompson-Schill，2016)， 同 一 词语 在 不 同 的 语 境 
中 表达 的 意思 和 产生 的 心理 感受 会 有 所 不 同 。 例 


信息 后 的 词 在 人 脑 中 的 表征 (Gao et al., 2023)。 在 
实验 中 ,每 个 试 次 包含 两 个 先后 呈现 的 英语 单词 ， 
被 试 需 要 判断 它们 是 否 存在 语义 关联 。 研 究 者 首 
先 采 用 Word2Vec 模型 提取 语义 向 量 ， 该 模型 对 
词 的 语义 表示 是 相对 固定 的 , 不 受 情境 词 的 影响 ， 
因此 被 认为 反映 了 词 的 孤立 语义 。 同 时 ， 对 于 同 
一 单词 ， 研 究 者 还 采用 了 ELMo 模型 提取 其 语义 
向 量 ， 该 模型 采用 双向 循环 神经 网 络 结构 ， 输 出 
的 词 向 量 充 分 整合 了 语 境 信息 ( 即 前 一 个 词 )。 通 过 
使 用 RSA 比较 人 脑 和 语言 模型 对 于 同一 组 刺激 的 
内 部 表征 相似 程度 ,研究 者 发 现 孤立 语义 的 表征 
主要 与 缘 上 回 有 关 ， 而 语 境 依赖 的 语义 表征 则 主 
要 与 左 侧 前 额 叶 、 角 回 和 腹 侧 甘 叶 有 关 。 

通过 运用 自 注意 力 机 制 整合 上 下 文 语 境 信息 ， 
NLP 技术 还 提供 了 表征 句 水 平 语义 的 指标 (例如 
InferSent 模型 的 输出 向 量 或 BERT 模型 输出 的 CLS 
向 量 )。 名 水 平 的 向 量 表示 不 仅 考 虑 了 单个 词 的 语 
义 信息 ,还 考虑 了 词 与 词 之 间 的 组 合 关 系 。 在 近 
期 一 项 研究 中 , 被 试 观看 一 系列 由 4~9 个 单词 构 
成 的 句子 , 同时 进行 fMRI 扫描 ,研究 者 首先 使 用 
InferSent 模型 提取 句子 的 语义 表征 ， 然 后 通过 岭 
回归 建立 句子 语义 特征 与 脑 活动 模式 间 的 预测 关 
Ro BRAIN, 表征 句 义 的 相关 脑 区 分 布 在 包括 
PEL. SUPE. SLE. SUPE. PoP EA 
的 广泛 区 域 (Anderson et al., 2021)。 在 另 一 项 研究 
H, 被 试 观看 电影 的 同时 进行 fMRI 扫描 ,研究 者 
将 电影 切割 成 多 个 片段 ， 并 对 每 一 片段 进行 文字 
注释 (每 条 注释 大 约 包含 15 个 词 ), 然后 采用 NLP 
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模型 将 注释 转换 成 语义 向 量 作为 电影 片段 的 语义 
特征 ， 最 后 基于 脑 活动 数据 预测 各 个 片段 的 文本 
注释 语义 特征 。 研 究 表 明 ， 默认 网 络 、 语 言 网 络 、 
枕 叶 的 脑 活动 模式 能 较为 准确 地 预测 片段 语义 特 
征 并 区 分 不 同 的 片段 (Vodrahalli et al., 2018)。 与 上 
述 研 究 结果 一 致 ，Acunzo 等 人 (2022) 首 先 训练 一 
个 对 话题 进行 分 类 的 卷 积 神经 网 络 以 使 模型 向 量 
更 好 地 捕获 话题 信息 ， 随 后 提取 该 模型 的 输出 层 
向 量 作为 句子 的 话题 向 量 表示 。 将 话题 向 量 与 大 
脑 活动 进行 表征 相似 性 分 析 发 现 ， 杜 叶 前 部 、 默 
认 网 络 等 参与 了 话题 水 平 信息 的 表征 ,支持 了 默 
认 网 络 具 有 抽象 、 整 合 长 时 程 信息 等 意义 建构 功 
能 的 观点 (Smallwood et al., 2021; Yeshurun et al., 
2021)。 
3.2.3 ”分 离 名 法 和 语义 

语言 信息 能 够 顺利 传达 ,不 仅 依 赖 词语 本 身 
的 语义 信息 和 语 境 提供 的 背景 信息 ， 还 需要 词语 
之 间 有 恰当 的 组 织 结 构 ， 即 句法 。 经 典 的 句法 研 
究 范 式 主要 采用 对 比 的 思路 试图 分 离 句 法 加 工 成 
分 ， 例 如 将 名 词 、 形 容 词 等 内 容 词 替 换 成 假 词 的 
jabberwocky 句 式 (Fedorenko et al., 2012; Matchin 
et al., 2019) 、 句 法 违背 (Batterink & Neville, 2013; 
Petersson et al.，2012) 、 句 法 适应 (Segaert et al., 
2012) 以 及 短语 组 合 (Law & Pylkkanen, 2021) 等 。 
然而 传统 的 句法 加 工 研 究 方 法 存在 着 一 些 局 限 ， 
例如 不 同 任务 得 到 的 句法 加 工 脑 区 分 布 有 不 少 差 
Se, 并 且 由 于 语义 和 句法 总 是 相伴 出 现 ， 改 变 句 
法 而 不 使 语义 发 生变 化 有 一 定 的 难度 (Pylkkanen， 
2019)， 因 此 句法 错乱 的 句子 很 大 程度 上 破坏 了 语 
义 信 息 ， 使 得 传统 实验 难以 分 离 精细 的 句法 加 工 
过 程 (Kuperberg, 2007). 
自然 语言 文本 中 词语 的 顺序 结构 蕴含 了 丰 
语言 信息 ， 即 使 没有 显 式 表示 句法 关系 ,具有 语 
境 整合 能 力 的 NLP 模型 在 训练 过 程 中 也 会 习 得 句 
法 关系 ,例如 “我 *、“ 爱 ”*”、“ 你 ”会 以 “我 爱 你 ”的 顺 
FER, 而 不 是 “我 你 爱 ”。 深 度 语言 模型 (例如 BERT) 
在 主 谓 一 致 性 、 反 身 代 词 回 指 等 多 种 句法 任务 上 
已 经 接近 甚至 超越 人 类 表现 (Goldberg，2019; Zhang 
et al.，2022)， 表 明 其 能 够 较为 准确 地 从 文本 中 获 
取 句 法 信息 。 采 用 实验 设计 中 “减法 ”的 思路 ， 可 以 
使 用 NLP 模型 分 别提 取 句 子 中 的 句法 和 语义 信息 ， 
将 句法 信息 从 向 量 中 剥离 ， 从 而 探究 加 工 句法 信 
息 的 脑 区 分 布 (Caucheteux et al., 2021a, 2021b; 
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Wang et al., 2020). DEFEZEAR AIM, WLS A Bi 
下 回 都 对 句法 信息 进行 了 加 工 ， 脑 区 分 布 情 况 与 
先前 的 实验 研究 相似 (Hagoort & Indefrey, 2014). 
最 近 有 人 研究 者 使 用 特征 消除 (feature elimination) 
的 方式 对 句法 信息 进行 更 精细 的 分 离 (例如 词性 、 
命名 实体 、 词 语 依赖 、 语 义 角色 等 ) 进而 探究 被 
试 在 倾听 故事 时 所 进行 的 多 种 句法 加 工 (Zhang et 
al., 2022)。 结 果 发 现 ， 尽管 不 同 句法 对 应 的 脑 区 分 
布 有 细微 的 差异 , 但 分 布 的 区 域 大 致 相同 , 集中 
在 里 上 回 、 矣 中 回 和 角 回 等 语义 网 络 区 域 (Binder 
et al., 2009)。 

NLP 模型 可 以 有 效 地 分 离 语 义 和 句 法 信息 ， 
能 够 在 限制 较 少 的 自然 任务 中 探究 大 脑 的 加 工 
il, 这 两 大 优点 预示 着 NLP 模型 在 脑 表征 研究 
向 上 的 潜力 (Cichy & Kaiser, 2019; Hamilton & 
Huth, 2020)。 然 而 ,目前 使 用 NLP 模型 探究 大 脑 
句法 加 工 的 研究 数量 有 限 ， 其 中 发 现 的 句法 加 工 
脑 区 比 传统 研究 方法 覆盖 了 更 广 的 区 域 ， 这 一 现 
象 究竟 是 对 分 布 式 句法 信息 加 工 机 制 的 如 实 反映 ， 
还 是 源 于 NLP 模型 与 脑 成 像 数据 构建 映射 时 存在 
的 误差 ， 仍 需 将 来 研究 开展 进一步 分 析 。 

3.2.4 ”篇 章 主题 信息 与 篇 章 语义 结构 的 表征 

篇 章 ( 段 落 ) 理 解 建立 在 词 和 句子 的 语义 分 析 
基础 之 上 , 通过 识别 篇 章 内 部 不 同 部 分 的 语义 结 
构 关 系 、 整 合 上 下 文 信息 ， 最 终 形成 篇 章 核心 主 
题 信 息 ( 或 情境 模型 ) 的 表征 (Patel et al., 2022)。 传 
统 实验 方法 一 般 将 完整 篇 章 与 打 乱 的 材料 进行 对 

比 (Hasson et al., 2008; Lerner et al., 2011; Simony 
et al.，2016)， 而 散乱 的 材料 使 得 被 试 的 记忆 与 整 
合 难度 更 大 ， 因 此 探测 到 的 差异 可 能 并 非 完全 由 
特异 于 篇 章 语 义 信息 的 加 工 所 驱动 。 此 外 ， 该 方 
法 未 对 篇 章 信息 进行 量化 ,难以 度量 篇 章 间 的 语 
义 距 离 与 关系 ,不 适用 于 不 同 篇 章 材料 的 研究 。 

近年 来 已 有 研究 者 开始 利用 NLP 技术 对 篇 章 
的 语义 进行 建 模 表示 ,考察 人 脑 对 连续 自然 语言 
刺激 (如 故事 或 电影 ) 的 加 工 和 表征 。 近 期 一 项 研究 
结合 fMRI 技术 和 LSA 方法 , 探究 以 不 同 模 态 旦 
现 的 复杂 叙事 信息 在 人 脑 中 如 何 表征 (Nguyen et al., 
2019)。 实 验 中 被 试 在 接受 fMRI 扫描 的 同时 , 其 
中 一 组 观看 无 声 影片 ， 另 一 组 收听 影片 内 容 对 应 
的 语音 叙述 。 在 扫描 结束 后 被 试用 自己 的 话 描述 
故事 内 容 ,研究 者 通过 LSA 进行 语义 分 析 ， 发现 
不 论 观 看 无 声 影片 还 是 收听 语音 叙述 ,被 试 描述 
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内 容 的 语义 相似 度 越 高 ， 他 们 在 默认 网 络 与 执行 
控制 网 络 上 的 神经 活动 相似 度 也 越 高 ， 这 一 研究 
结果 揭示 了 默认 网 络 (default mode network, DMN) 
跨 模 态 表征 主题 语义 信息 的 功能 。 男 一 项 研究 考 
察 了 言语 产生 和 言语 理解 过 程 中 大 脑 对 主题 信息 
的 表征 一 致 性 (Patel et al., 2022), 在 fMRI 扫描 的 
同时 ， 被 试 围绕 一 系列 主题 进行 口头 描述 ， 并 收 
听 另 一 被 试 讲述 的 其 他 主题 内 容 。 研 究 者 运用 
LSA 计算 描述 内 容 两 两 之 间 的 语义 距离 ， 并 计算 
言语 理解 任务 和 言语 产生 任务 的 脑 表 征 差异 矩阵 ， 
最 后 计算 语义 差异 矩阵 和 脑 表征 差异 矩阵 的 相似 
ERSA 分 析 )。 结果 表明 ,包括 额 下 回 、 内 侧 前 额 
叶 、 杜 极 、 桔 中 回 、 角 回 和 槐 前 叶 在 内 的 双 侧 广 
泛 脑 区 ， 其 活动 模式 与 言语 理解 和 产 出 的 语义 内 
容 存在 关联 。 该 研究 首次 对 言语 产生 过 程 的 篇 章 
水 平 语义 进行 分 析 ， 揭 示 了 言语 产生 和 言语 理解 


明 人 脑 对 于 事件 的 加 工 与 记忆 效果 与 其 在 语义 组 
织 结构 中 的 位 置 有 关 。 

以 上 研究 结果 表明 篇 章 的 语义 组 织 结构 对 人 
们 的 主观 感受 、 记 忆 效 果 与 大 脑 活动 等 都 产生 了 
影响 , 但 目前 使 用 NLP 对 大 脑 语 义 表征 的 研究 大 
多 从 刺激 编码 角度 出 发 ， 对 连续 刺激 中 的 语义 组 
织 结 构 和 语义 关系 等 关注 较 少 。 未 来 研究 可 以 从 
自然 刺激 中 的 语义 结构 人 手 ， 进 一 步 探究 其 与 大 
脑 加 工 、 学 习 和 记忆 效果 的 关联 ,例如 对 于 阴谋 
论 和 谣言 的 识别 (Miani et al，2022) 、 叙 事 偏 好 
(Cooper & Nisbet, 2016) 等 的 神经 基础 。 
3.2.5 小结 

NLP 技术 的 使 用 让 语言 从 符号 表示 转 为 向 量 
表示 , 一 定 程度 上 克服 了 词语 离散 、 难 量化 计算 、 
难 统一 表示 等 难点 ,使 得 语义 的 计算 和 比较 成 为 
可 能 。 与 此 同时 , 表征 相似 性 分 析 、 线 性 回归 等 


两 个 过 程 共享 的 负责 高 层级 篇 章 语 义 信息 表征 的 网 
络 。 以 上 研究 通过 对 篇 章 水 平 语义 信息 进行 分 析 
研究 结果 进一步 支持 了 默认 网 络 在 意义 构建 中 的 
作用 (Margulies et al., 2016; Smallwood et al., 2021)。 


多 变量 分 析 方 法 为 不 同 模 态 的 数据 搭建 了 桥梁 。 
随 着 深度 语言 模型 的 发 展 , NLP 模型 已 能 够 将 上 
下 文 语 境 信息 整合 进 向 量 表示 中 ,提升 了 对 语言 
的 表示 精度 ， 并 使 得 实时 刻画 语义 在 不 同 语 境 背 


对 篇 章 材 料 还 可 以 从 网 络 拓扑 属性 方面 探究 
语义 结构 对 大 脑 加 工 、 学 习 、 记 忆 等 的 影响 。 在 
文本 、 视 频 等 自然 刺激 当中 , 句子 和 事件 在 某 一 
主题 内 是 相互 联系 的 , 例如 一 个 故事 通常 围绕 着 
若干 个 核心 的 主旨 和 句 或 情节 进行 展开 。 使 用 语义 
相似 性 作为 连 边 的 权重 ， 对 篇 章 构建 拓扑 网 络 ， 
可 以 反映 篇 章 的 语义 组 织 结构 等 信息 。 有 研究 者 
对 电影 叙事 节奏 与 观众 评价 之 间 的 联系 进行 探究 
(Laurino Dos Santos & Berger, 2022)， 使 用 相 邻 片 
段 的 语义 相似 性 作为 衡量 情节 发 展 速率 的 指标 ， 
情节 发 展 缓慢 时 相 邻 片段 的 语义 相似 度 较 高 。 研 
究 结果 显示 ， 开 头 节 奏 缓 慢 、 结 尾 情 节 推 进 稍 快 
的 电影 得 到 了 更 高 的 评分 ， 表明 故事 篇 章 的 语义 
结构 会 对 人 们 的 感受 与 投入 度 产生 影响 。 最 近 另 
一 项 脑 成 像 研究 考察 了 篇 章 语义 结构 对 记忆 效果 
的 影响 (Lee & Chen, 2022)， 研 究 者 对 视频 片段 进 
行 分 割 , 借助 NLP 技术 提取 各 个 片段 对 应 文字 描 
述 的 语义 向 量 ， 并 以 片段 作为 节点 、 以 片段 间 的 
语义 相似 性 作为 连 边 权重 , 构建 视频 的 语义 结构 
拓扑 网 络 。 人 研究 结果 显示 ， 中 心 度 (centrality, 反映 
了 与 其 他 节点 的 关联 强度 ) 较 高 的 片段 产生 了 更 


景 下 的 动态 变化 成 为 可 能 。 基 于 此 , 研究 者 使 用 
NLP 提取 的 词 向 量 作为 语义 表示 , 减少 了 对 于 刺 
激 材 料 或 实验 任务 等 的 人 为 控制 需求 ， 对 语义 脑 
表征 的 探究 不 再 依赖 不 同类 型 刺激 或 加 工 任务 的 
对 比 。 此 外 , NLP 作为 计算 语言 模型 具有 较 高 的 灵 
活性 , 输入 不 同类 型 的 文本 可 以 得 到 对 应 的 信 
息 。 研 究 者 可 以 通过 比较 模型 对 不 同类 型 文本 的 
向 量 表 示 ( 例 如 含 语 境 信息 的 词 向 量 和 不 含 语 境 
信息 的 词 向 量 ) 与 大 脑 表 征 的 匹配 程度 , 分析 某 一 
脑 区 表征 的 信息 类 型 或 加 工 特点 (Cichy & Kaiser, 
2019), 例如 人 脑 对 未 来 词语 的 预测 机 制 (Caucheteux 
et al., 2021b; Goldstein et al., 2022)， 先 验 信念 对 
文本 理解 的 影响 (Tikochinski et al., 2021) 等 。 通 过 
将 实验 设计 的 对 象 从 大 脑 活动 转移 到 计算 模型 上 ， 
NLP 技术 可 用 于 分 离 不 同 成 分 的 信息 ， 并 有 效 降 
低 了 被 试 与 实验 数量 的 要 求 。 最 后 ， 自 然 刺 激 和 
低 限 制 任务 的 使 用 正 逐 渐 成 为 脑 成 像 研究 的 趋势 
(Finn & Bandettini, 2021; Hamilton & Huth, 2020), 
然而 传统 心理 学 实验 方法 难以 追踪 不 断 输入 的 词 
语 语义 、 难 以 将 先前 语 境 信息 整合 到 当前 词语 中 。 
NLP 技术 提供 了 表征 字 、 词 、 句 、 篇 章 等 多 层级 


好 的 记忆 效果 , 并 且 在 情景 回忆 相关 脑 区 (默认 网 
络 ) 诱 发 了 更 强 的 激活 与 更 高 的 被 试 间 一 致 性 , 表 


语义 信息 的 建 模 方法 ,在 自然 语言 加 工 的 脑 神经 
基础 探究 中 发 挥 着 日 益 重 要 的 作用 。 
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运用 NLP 技术 提取 刺激 的 语义 特征 并 与 脑 活 
动 建立 映射 关系 ,近期 研究 者 较为 一 致 地 观察 到 
语义 表征 有 关 的 神经 结构 广泛 分 布 在 额 叶 、 显 叶 、 
枕 叶 等 多 个 脑 区 ,该 结果 与 基于 传统 心理 学 实验 
方法 以 及 脑 损伤 病人 所 揭示 的 局 部 脑 区 表征 语义 
结论 并 不 完全 一 致 。 其 部 分 原因 可 能 在 于 ， 基 于 
大 样本 文本 库 训 练 得 到 的 语言 模型 较为 充分 地 捕 
获 了 语言 符号 的 多 重 语义 信息 ,而 传统 心理 学 实 
验 中 使 用 的 特定 任务 (例如 :语义 关联 判断 ) 选 择 性 
地 激活 了 语言 符号 某 一 方面 的 语义 ， 因 而 以 往 仅 
探测 到 部 分 脑 区 的 参与 。 值 得 注意 的 是 ， 有 不 少 
理论 模型 也 提出 语义 记忆 的 神经 表征 分 布 在 包括 
感觉 运动 区 和 联合 皮层 在 内 的 广泛 脑 区 (Bi, 2021; 
Fernandino et al., 2016a; Fernandino et al., 2016b; 
Lambon Ralph et al., 2017)。 例 如 ,概念 表征 的 “中 
心 -辐射 ub-and-spoke)” 理 论 (Patterson et al., 2007; 
Lambon Ralph et al., 2017) 提 出 ， 跨 通道 的 语言 及 
非 语言 经 验 构 成 了 概念 的 核心 成 分 ( 即 hub)， 主 要 
由 里 叶 前 部 负责 表征 与 整合 ， 而 概念 习 得 过 程 中 
出 现 的 初始 源头 信息 ( 即 spoke, 包括 视觉 、 听 觉 、 
情绪 效 价 等 ) 则 分 布 在 各 个 通道 特异 皮层 。 此 外 ， 
双重 编码 理论 则 将 知识 表征 分 为 两 大 类 别 : 基于 


型 输出 的 词 向 量 蕴含 丰富 的 信息 ,通过 消融 实验 
或 输入 不 同类 型 刺激 等 方式 , 研究 者 可 以 提取 或 
去 除 某 种 信息 (例如 句法 信息 )， 从 而 在 不 同 的 信 
息 角 度 对 大 脑 语义 表征 进行 考察 ; (4) 词 向 量 的 获 
取 快 速 便捷 、 受 主观 因素 干扰 较 少 ,能 大 大 降低 
材料 评定 所 需 成 本 。 通 过 表征 相似 性 和 线性 回归 
等 方法 ,人 研究 者 尝试 利用 基于 语言 模型 提取 的 语 
义 信 息 来 解释 脑 活动 的 变化 , 在 揭示 语义 的 分 布 
式 表征 、 语 境 信 息 对 语义 表征 的 影响 、 句 法 与 语 
义 加 工区 域 的 分 离 以 及 篇 章 语义 表征 等 问题 上 取 
得 了 诸多 新 发 现 。 

然而 ,在 回答 语言 认 知 及 其 脑 机 制 等 相关 问 
题 时 ,自然 语言 处 理 技术 也 存在 一 定 的 局 限 性 。 
首先 是 NLP 模型 的 可 解释 性 问题 。 近 年 来 基于 神 
经 网 络 和 深度 学 习 技 术 的 语言 模型 内 部 结构 越 来 
越 复杂 和 庞大 ， 例 如 最 近 的 GTP-3 模型 参数 量 达 
到 了 1750 亿 (Brown et al., 2020)， 尽 管 在 语言 任务 
上 的 表现 较 好 , 但 庞大 的 参数 量 和 复杂 的 结构 使 
得 模型 的 可 解释 性 较 差 : 模型 输出 的 词 向 量 反映 
了 语言 哪些 方面 的 特征 ? 模型 通过 哪些 关键 步骤 
获得 了 这 些 特 征 ? 这 些 问 题目 前 尚 无 确切 答案 。 
目前 可 以 采用 模型 对 比 等 方式 (例如 消除 或 保留 


感知 运动 (sensorimotor-derived) 的 系统 与 基于 语 
言 符 号 (language-derived) 的 系统 ， 其 中 支持 感知 
运动 编码 的 知识 表征 系统 主要 分 布 在 通道 特异 的 
感觉 运动 皮层 以 及 联合 皮层 等 广泛 脑 区 ; 支持 语 
言 编 码 的 知识 表征 系统 则 主要 分 布 在 背 侧 前 匡 叶 
(dorsal anterior temporal lobe, dATL) 及 其 延展 区 域 
(包括 额 下 回 和 杜 中 回 等 经 典 语言 脑 区 )。 基 于 NLP 
技术 揭示 的 广泛 语义 敏感 脑 区 说 明 表 征 语义 的 向 
量 空间 有 可 能 同时 捕获 了 自然 语言 的 抽象 、 跨 通 
道成 分 和 通道 特异 成 分 , 然而 要 建立 起 这 些 研究 
发 现 与 认 知 理论 模型 之 间 的 确切 关联 还 面临 着 众 
多 挑战 (关于 该 问题 更 深入 的 讨论 请 参阅 : EH 
等 , 2022a; Kumar, 2021)。 


4 总 结 与 展望 


相 比 传统 心理 学 实验 方法 ,运用 自然 语言 处 
理 (NLP) 技 术 来 刻画 语义 具有 几 大 优势 : (D) 能 够 
对 词 、 句 子 和 篇 章 等 多 个 层级 的 语义 信息 进行 客 
观 量化 和 计算 ， 提 供 了 语义 的 度量 指标 ; (2) 88 
整合 上 下 文 信息 ,根据 语 境 调整 词 向 量 的 输出 ， 
从 而 对 语 境 下 的 语义 有 更 准确 的 表示 ; (3)NLP 模 


语 境 信息 、 采 用 随机 向 量 代替 词 向 量 等 ) 探 究 大 脑 
对 某 种 信息 的 加 工 , 但 低 可 解释 性 仍然 在 一 定 程 
度 上 限制 了 NLP 在 语言 认 知 研究 上 的 解释 效力 与 
应 用 潜力 。 其 次 , 模型 的 数量 和 类 型 正 迅速 增长 ， 
不 同 模型 在 训练 材料 、 网 络 架构 、 参 数量 以 及 训 
练 任务 等 多 个 方面 存在 差异 ， 导 致 输出 的 词 向 量 
不 尽 相同 。 在 使 用 词 向 量 与 大 脑 活 动 建立 映射 关 
系 时 , 模型 之 间 编 码 或 解码 的 表现 差异 来 源 变 得 
模糊 ， 即 使 采用 相同 的 预 训练 模型 来 获得 相同 的 
模型 参数 ， 也 面临 着 模型 抽样 误差 等 问题 。 此 外 ， 
NLP 模型 的 构建 与 人 类 习 得 语义 的 途径 不 同 , 其 
内 在 计算 与 加 工 机 制 也 可 能 与 人 脑 存在 本 质 差 
异 。 人 类 的 语言 习 得 是 不 断 与 世界 环境 进行 多 模 
态 交 互 的 过 程 ， 而 目前 主流 NLP 模型 绝 大 多 数 只 
有 文字 一 个 模 态 ,并 且 难 以 做 到 像 人 类 一 样 基于 
短 短 几 次 反馈 就 习 得 新 知识 或 改变 原 有 观念 。 另 
一 方面 , NLP 模型 的 训练 语 料 越 来 越 多 、 结 构 越 来 
越 复 杂 ， 在 逻辑 推理 、 知 识 迁移 等 高 级 语言 任务 
上 却 仍然 表现 较 差 .NLP 是 否 真 正 习 得 语言 目前 
是 一 个 备 受 关注 的 问题 。 因 此 , 借助 NLP 模型 能 
够 多 大 程度 解释 人 脑 中 的 语义 表征 机 制 仍 需 未 来 
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更 深入 的 研究 。 鉴 于 以 上 局 限 性 ,在 应 用 语言 模 
型 提取 刺激 特征 时 , 研究 者 需 根据 研究 问题 选择 
恰当 的 模型 ,结合 实验 设计 对 模型 的 有 效 性 进行 
测试 ,并 谨慎 解释 实验 结 


常识 推理 任务 。 但 图 模型 用 于 表示 语义 的 数据 结 
构 较为 复杂 ,难以 直接 使 用 图 模型 的 语义 表示 对 
脑 活 动 数据 进行 直接 建 模 ,研究 者 可 采用 间接 的 
方式 ， 从 图 模型 中 提取 语义 关系 或 距离 信息 ， 随 


值得 注意 的 是 ,NLP 模型 并 不 总 是 语义 表示 
的 唯一 解 或 最 优 解 。 当 前 心理 学 的 其 他 语义 表示 
方法 在 一 些 情况 下 也 取得 了 不 错 的 表现 , 并 日 具 
有 较 强 的 可 解释 性 ， 例 如 特征 列举 法 能 够 直观 地 
反映 概念 不 同 特征 在 记忆 中 的 凸显 度 (Cree & 
McRae, 2003); 特征 评定 法 能 获得 概念 在 多 个 维 
度 (例如 感知 觉 、 情 绪 等 ) 上 的 属性 强 弱 ， 也 能 以 分 
布 式 表 示 对 概念 进行 相似 性 等 计算 (Binder et al., 
2016); 网 络 模型 能 够 清晰 地 反映 概念 之 间 的 层级 
与 关系 结构 (Solomon et al., 2019; Zhu et al., 2022). 
基于 纯 文 本 进行 训练 的 NLP 模型 并 不 一 定 能 完整 
捕获 人 类 的 语义 知识 以 及 加 工 特点 (如 推理 、 联 
想 、 多 模 态 等 )， 例 如 最 近 对 概念 语义 脑 表 征 的 研 
REM, MEF NLP 模型 ， 基 于 体验 属性 的 特征 
评分 与 大 脑 的 表征 相似 性 更 高 ， 并 且 使 用 偏 相关 
控制 共享 信息 的 影响 之 后 ,体验 属性 仍 表 现 出 与 
大 脑 显 著 的 表征 相似 性 ， 而 NLP 模型 则 相关 不 显 
著 , 说明 人 脑 对 概念 的 表征 中 存在 NLP 模型 尚未 
学 习 到 的 多 模 态 信息 (Fernandino et al., 2022; 
Tong et al., 2022)。 因 此 , NLP 模型 与 传统 的 心理 
学 语义 表示 方法 并 无 绝对 的 优 劣 之 分 , 它们 提供 
了 互补 的 信息 与 作用 (Kumar 2021): 在 小 规模 语 
料 中 ,传统 方法 虽然 颗粒 度 较 粗 , 但 其 高 解释 性 
有 助 于 对 研究 理论 与 假设 进行 验证 ; 在 大 规模 语 
料 和 自然 刺激 中 , 虽然 NLP 模型 较 低 的 可 解释 性 
使 得 向 量 维度 含义 不 明确 ,但 其 能 够 便捷 地 获取 
语 境 化 的 语义 表示 ， 并 通过 模型 对 比 的 方式 对 不 
同 信 息 内 容 进行 考察 。 

下 一 步 ， 研 究 者 还 可 从 以 下 几 个 方面 深入 拓 
展 NLP 技术 在 神经 语言 学 中 的 应 用 : 

(1) 引 入 基于 图 模型 的 语义 表示 方法 。 除 了 基 


后 使 用 RSA 等 方法 考察 大 脑 对 语义 关系 的 加 工 。 
以 WordNet 为 例 ， 该 数据 库 根 据 单词 间 的 语义 关 
系 (例如 从 属 关 系 ), 将 单词 按照 树 状 结构 进行 组 
织 。WordNet 中 两 个 词 之 间 的 语义 距离 可 通过 连 
通 这 两 个 词 所 需 的 最 短路 径 来 度量 (Carota et al., 
2021; Fernandino et al., 2022; Wurm & Caramazza, 
2019), 例如 ， 从 “ 猫 (cat)” 的 节点 到 达 “ 鼠 (mouse)》” 
的 节点 需要 经 过 以 下 路 径 : 猫 一 猫 科 动物 一 食肉 
动物 一 胎盘 哺乳 动物 一 嘴 齿 类 一 鼠 ， 因 此 这 两 个 
词 的 关系 距离 为 5。 

(2) 应 用 多 模 态 融 合 的 深度 语言 模型 。 在 自然 
交流 情境 下 ， 人 们 对 信息 的 加 工 与 理解 常常 融合 
了 声音 、 图 像 、 文 本 等 多 个 模 态 ,并且 加 工 单个 
概念 时 往往 也 会 提取 多 个 模 态 的 信息 (Bi，2021)， 
然而 传统 的 实验 方法 和 基于 纯 文 本 的 NLP 模型 难 
以 融合 与 量化 多 模 态 信息 ， 尚 不 能 全 面 描述 人 脑 
对 于 概念 的 表征 内 容 (Dubova，2022; McClelland 
et al., 2020)。 人 工 智能 领域 已 经 开发 了 多 模 态 融 
合 的 深度 语义 表示 方法 (Lahat et al., 2015; Wang, 
Zhang, Lin et al., 2018; Wang, Zhang, Zong, 2018; 
Zhu et al., 2022). 运用 多 模 态 语言 模型 ， 可 进一步 
深入 探究 大 脑 对 不 同 模 态 信息 的 加 工 机制 , 例如 
基于 语言 和 基于 体验 的 两 类 信息 (Bi, 2021; Paivio, 
1991) 在 大 脑 中 的 表征 分 布 与 方式 、 角 色 地 位 以 及 
整合 方式 与 程度 等 。 

(3) 运 用 语言 模型 评估 特殊 人 群 的 语言 能 力 。 
例如 ,对 正常 人 和 失语 症 (或 自 闭 症 、 精 神 分 裂 症 
等 ) 患 者 的 语言 产 出 进行 文本 分 析 ， 获 得 其 语义 类 
别 、 语 义 模糊 性 、 词 频 分 布 和 语义 结构 等 多 方面 
特征 (Day et al., 2021; Nevler et al., 2020)。 基 于 这 
些 特征 建立 分 类 或 预测 模型 ， 有 助 于 提高 语言 能 


J 


于 分 布 式 假 设 的 文本 表示 方法 ， 图 模型 也 是 NLP 
领域 中 较为 成 熟 的 表示 文本 关系 的 技术 (例如 知 
识 图 谱 )。 在 图 模型 中 ,网 络 的 节点 代表 语言 要 素 
( 词 、 概 念 、 实 体 、 句 子 、 篇 章 等 )， 网 络 的 边 代表 
语言 要 素 间 的 关系 。 以 知识 图 谱 为 例 ， 图 模型 的 
建构 充分 利用 了 语言 要 素 的 属性 关系 、 语 言 学 先 
验 知识 和 世界 知识 等 信息 ， 与 神经 网 络 模型 相 比 
具有 更 高 的 可 解释 性 , 语义 关系 明确 , 易于 进行 


力 与 疾病 评估 的 准确 性 或 受 测 者 的 接受 程度 (de 
Boer et al., 2018; Fraser et al., 2016), 降低 评估 
所 需 的 时 间 与 人 力 成 本 。 

(4) 利 用 脑 活动 数据 增强 对 深度 语言 模型 的 理 
解 或 改进 模型 。 现 今 的 深度 语言 模型 能 完成 各 种 
各 样 的 语言 任务 , 但 人 们 对 模型 内 部 的 实现 机 制 
依然 缺乏 清晰 的 认识 。 人 脑 是 世界 上 唯一 能 真正 
理解 自然 语言 的 加 工 系统 ， 理 解 深度 模型 的 一 个 
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思路 便 是 将 其 与 人 脑 进行 对 比 ， 当 前 已 有 部 分 研 
究 开 始 基于 深度 模型 的 “类 脑 ” 情 况 来 推测 模型 内 
部 的 运行 机 理 或 解释 不 同 模型 存在 差异 的 原因 。 
例如 在 一 项 研究 中 , 研究 者 拟 探 究 不 同 语言 模型 
以 及 同一 模型 内 部 不 同 隐藏 层 对 语 境 信息 的 整合 
能 力 (Toneva & Wehbe, 2019)。 研 究 者 使 用 fMRI 
采集 了 被 试 阅读 故事 (每 个 词 单独 呈现 在 屏幕 上 ) 
时 的 脑 活动 , 同时 提取 了 不 同 NLP 模型 的 每 一 隐 
藏 层 对 故事 中 每 个 词 的 向 量 表示 , 通过 岭 回 归 和 
分 类 任务 计算 模型 输出 词 向 量 对 多 个 重要 语言 脑 
区 活动 的 预测 程度 。 结 果 表明 ， 当 用 于 计算 词 向 
量 时 纳入 的 语 境 较 短 时 ( 少 于 10 Ai), BERT 和 
Transformer T-XL 模型 的 中 间 层 对 脑 活动 的 预测 
效果 优 于 较 浅 的 输入 层 ,， 反映 了 隐藏 层 的 语 境 整 
合 能 力 。 当 纳入 的 语 境 信息 超过 10 个 词 时 , BERT 
对 脑 活动 的 预测 效果 随 着 语 境 词 数量 的 增加 而 下 
降 ， 而 Transformer T-XL 的 预测 效果 则 仍然 保持 
缓慢 升 趋势 。 研 究 者 推测 ， 对 脑 活 动 预 测 效 果 最 
佳 时 对 应 的 语 境 长 度 可 能 反映 了 模型 (或 隐藏 层 ) 
整合 情境 信息 的 能 力 , 结果 显示 Transformer T-XL 
比 BERT 更 擅长 整合 长 距离 语 境 信息 ， 而 这 正 是 
Transformer T-XL 当初 的 设计 初衷 之 一 。 类 似 的 工 
作 还 发 现 NLP 的 语言 任务 能 力 和 对 大 脑 活 动 的 预 
测 能 力 存 在 显著 正 相 关 (Caucheteux & King, 2022; 
Schrimpf et al., 2021)。 更 进一步 ， 还 有 研究 者 对 模 
型 进行 微调 ， 发 现 提 高 模型 对 脑 活 动 预测 能 力 的 
同时 (使 模型 更 “类 脑 习 显著 改善 了 模型 在 多 个 语 
言 任 务 上 的 表现 (Schwartz et al., 2019; Toneva & 
Wehbe, 2019)。 

以 上 研究 表明 , 通过 与 人 脑 的 认 知 和 神经 加 
工 过 程 作 对 比 来 理解 甚至 改进 深度 语言 模型 这 一 
方向 具有 很 大 潜力 。 但 由 于 人 类 思维 的 隐蔽 性 和 
当前 脑 成 像 技 术 在 时 间 和 空间 分 辨 率 上 的 局 限 性 
以 及 低 信 噪 比 等 问题 ， 进 行 “ 类 脑 ” 分 析 或 对 NLP 
模型 内 部 的 认 知 机 制 进行 探究 时 , 仍 需 利用 严格 
的 实验 控制 和 先 验 知识 对 结果 进行 约束 , 或 配合 其 
他 模型 解释 方法 共同 做 出 推理 (Sun et al., 2021)。 
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Distributed representation of semantics in the human brain: Evidence 
from studies using natural language processing techniques 
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Abstract: How semantics are represented in human brain is a central issue in cognitive neuroscience. 
Previous studies typically address this issue by artificially manipulating the properties of stimuli or task 
demands. Having brought valuable insights into the neurobiology of language, this psychological experimental 
approach may still fail to characterize semantic information with high resolution, and have difficulty 
quantifying context information and high-level concepts. The recently-developed natural language processing 
(NLP) techniques provide tools to represent the discrete semantics in the form of vectors, enabling automatic 
extraction of word semantics and even the information of context and syntax. Recent studies have applied 
NLP techniques to model the semantic of stimuli, and mapped the semantic vectors onto brain activities 
through representational similarity analyses or linear regression. A consistent finding is that the semantic 
information is represented by a vastly distributed network across the frontal, temporal and occipital cortices. 
Future studies may adopt multi-modal neural networks and knowledge graphs to extract richer information 
of semantics, apply NLP models to automatically assess the language ability of special groups, and improve 
the interpretability of deep neural network models with neurocognitive findings. 
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